Forwarded from Machinelearning
Kimi-Audio — инструктивная модель с 7 млрд. параметров, разработанная командой MoonshotAI, которая объединяет распознавание речи, анализ аудиоконтента и генерацию ответов в реальном времени в единую архитектуру. Модель показала SOTA-результаты на множестве аудиобенчмарков, от распознавания речи до эмоционального анализа.
Архитектура Kimi-Audio — это 3 компонента:
Отдельного внимания заслуживает пайплайн обучения, к нему команда разработки подошла ответственно и скрупулезно: 13 млн часов аудио были обработаны через автоматический конвейер, включающий шумоподавление, диаризацию и транскрипцию.
Для повышения качества сегменты объединялись по контексту, а транскрипции дополнялись пунктуацией на основе пауз. После предобучения на задачах ASR и TTS модель прошла этап SFT на 300 тыс. часов данных (развернутые диалоги и аудиочаты).
В тестах ASR Kimi-Audio показала: WER 1.28 на LibriSpeech test-clean против 2.37 у Qwen2.5-Omni. В аудиопонимании она лидирует на ClothoAQA (73.18) и MELD (59.13), а в классификации сцен (CochlScene) показывает 80.99 — на 17 пунктов выше ближайшего соперника. В диалогах модель близка к GPT-4o (3.90 против 4.06 по субъективной оценке).
@ai_machinelearning_big_data
#AI #ML #KimiAudio #MoonshotAI
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Благое собрал лучшие БЕСПЛАТНЫЕ альтернативы платным нейросетям:
• Grok Илона Маска (ChatGPT) —обеспечивает точные и быстрые ответы с учетом контекста, поддерживая профессиональный уровень общения.
• Qwen (Claude) — типовая языковая модель от Alibaba, которая обеспечивает высокую точность в генерации текста, переводах и ответах на сложные запросы.
• Ideogram (KlingAI) — отлично генерирует высококачественные изображения, включая логотипы и иллюстрации, на основе текстовых описаний.
• HailuoAI (MidJourney) — нейросеть, которая генерирует реалистичные изображения из текстовых описаний.
• Fotor(Photoshop) — отредактирует изображения по тексту, предлагая удобный интерфейс для создания креативного контента и дизайна.
Сохраняем, чтобы не потерять.
• Grok Илона Маска (ChatGPT) —обеспечивает точные и быстрые ответы с учетом контекста, поддерживая профессиональный уровень общения.
• Qwen (Claude) — типовая языковая модель от Alibaba, которая обеспечивает высокую точность в генерации текста, переводах и ответах на сложные запросы.
• Ideogram (KlingAI) — отлично генерирует высококачественные изображения, включая логотипы и иллюстрации, на основе текстовых описаний.
• HailuoAI (MidJourney) — нейросеть, которая генерирует реалистичные изображения из текстовых описаний.
• Fotor(Photoshop) — отредактирует изображения по тексту, предлагая удобный интерфейс для создания креативного контента и дизайна.
Сохраняем, чтобы не потерять.
Forwarded from Machinelearning
🦾 Berkeley Humanoid Lite — открытый человекоподобный робот
Калифорнийский университет Беркли представил проект Humanoid Lite — результат многолетних исследований и экспериментов по созданию простых в производстве человекоподобных роботов.
Платформа полностью придерживается принципов Open Hardware: в ней используются свободно распространяемое ПО, серийные комплектующие, доступные в розничной продаже, а также детали, напечатанные на 3D-принтере.
🌟 100 % open-source под MIT-лицензией: прошивки, схемы, BOM, STL-модели, RL-контроллеры
✔️ Open Hardware: доступные в рознице электро- и мехкомпоненты, детали печатаются на обычном FDM-принтере
➡️ Итоговая стоимость сборки — примерно 5 000 USD
⭐️ Модульная конструкция: легко превращается в квадропода или «кенавроподобного» робота
➡️ Экосистема: Isaac Lab / Isaac Sim / MuJoCo, телеметрия через SteamVR-контроллеры
⏩ Что доступно:
- Исходный код робота на C++ и Python
- Модели машинного обучения для контроллера движений
- Чертежи пластиковых деталей
- Полный список комплектующих с ссылками на покупку
- Пошаговый сборочный план
- Симуляционные окружения для тренировки и запуска робота
🌟 Что робот умеет уже сейчас
- локомоция: RL-контроллер приводит в заданную точку
- телеприсутствие: человек управляет манипулятором через VR-контроллеры
- навигация: экспериментальные алгоритмы обхода препятствий
- поддержка мелкой моторики
🔥 Как удалось удешевить:
- пластиковые шестерни, напечатанные на 3D-принтере
- циклоидные редукторы, повышающие надёжность пластика
- использование типовых драйверов и контроллеров без кастомных плат
*Clone → Print → Build → Hack!* 🤓
🔜 Проект
🔜 Код
🔜 Схемы
@ai_machinelearning_big_data
#robots #ai #ml #opensource
Калифорнийский университет Беркли представил проект Humanoid Lite — результат многолетних исследований и экспериментов по созданию простых в производстве человекоподобных роботов.
Платформа полностью придерживается принципов Open Hardware: в ней используются свободно распространяемое ПО, серийные комплектующие, доступные в розничной продаже, а также детали, напечатанные на 3D-принтере.
⭐️ Модульная конструкция: легко превращается в квадропода или «кенавроподобного» робота
- Исходный код робота на C++ и Python
- Модели машинного обучения для контроллера движений
- Чертежи пластиковых деталей
- Полный список комплектующих с ссылками на покупку
- Пошаговый сборочный план
- Симуляционные окружения для тренировки и запуска робота
- локомоция: RL-контроллер приводит в заданную точку
- телеприсутствие: человек управляет манипулятором через VR-контроллеры
- навигация: экспериментальные алгоритмы обхода препятствий
- поддержка мелкой моторики
- пластиковые шестерни, напечатанные на 3D-принтере
- циклоидные редукторы, повышающие надёжность пластика
- использование типовых драйверов и контроллеров без кастомных плат
*Clone → Print → Build → Hack!* 🤓
@ai_machinelearning_big_data
#robots #ai #ml #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Сгенерованные картинки уже НЕВОЗМОЖНО отличить от реальных видосов.
Посмотрите видео
Посмотрите видео
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
📅 Когда появились традиционные методы обработки изображений:
Традиционные (или классические) методы начали развиваться с 1960-х годов, а активно применяться — с 1970–1980-х, задолго до появления современных нейросетей.
- Фильтрация изображений (Гаусс, Собель, Лаплас и др.)
- Детектирование границ (Canny, Prewitt)
- Морфологическая обработка (эрозия, дилатация)
- Бинаризация, сегментация, пороговая фильтрация
- Шумоподавление, выделение контуров
📍 К 1990-м эти техники уже активно использовались в промышленности, медицине, военной технике и OCR (распознавании текста), например в факсах и сканерах. Именно в этом контексте и появлялись первые попытки заменить часть ручной обработки нейросетями, как сделал Лекун с CNN.
Всем продуктивного дня ☀️
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Это платформа с доступом к сотням лучших моделей и агентов, которые справляются с любыми задачами: от привычной генерации текста и изображений до помощи в общении с партнером или просчета бюджета для бизнес-проекта.
Удобная навигация по категориям, галерея ваших созданных картинок и гибкий список инструментов, который можно настроить под себя. Всё в одном клике.
http://glbgpt.com/
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Тра файл: мужик через GPT-4o составил текст извинения своей девушке, но слишком сильно доверился ИИ — забыл удалить одну строчку.
Комментарий: произошёл фейл💀
Комментарий: произошёл фейл
Please open Telegram to view this post
VIEW IN TELEGRAM
Google анонсировала AI Futures Fund — программу для поддержки ИИ-стартапов. Участники получат ранний доступ к моделям DeepMind (Gemini, Imagen и Veo). Кроме технологий, стартапы смогут консультироваться с инженерами и исследователями Google, а также получат облачные кредиты для обучения и масштабирования решений. Уже сейчас с фондом работают проекты из разных сфер: индийский Toonsutra внедряет Gemini для перевода комиксов, Viggle экспериментирует с генерацией мемов, а платформа Rooms тестирует интерактивные 3D-пространства.
Программа открыта для стартапов из регионов, где доступен Gemini. Подать заявку можно на сайте фонда. Участники смогут претендовать не только на технические ресурсы, но и на прямые инвестиции от Google.
blog.google
@neural
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Кодер превратил нейросеть в настоящий завод по зарабатыванию ДЕНЕГ — ИИ ему уже принес 8 тысяч долларов на брейнрот-контенте про животных.
Внутри система n8n, которая делает абсолютно все. Короткие ролики обходятся меньше чем в доллар за штуку, но собирают миллионы просмотров.
Майнинг крипты в прошлом. Теперь люди майнят бомбордиро крокодило.
@neural
Внутри система n8n, которая делает абсолютно все. Короткие ролики обходятся меньше чем в доллар за штуку, но собирают миллионы просмотров.
Майнинг крипты в прошлом. Теперь люди майнят бомбордиро крокодило.
@neural
Forwarded from Machinelearning
Salesforce AI Research выпустила BLIP3-o, набор полностью открытых унифицированных мультимодальных моделей, которые могут как понимать, так и генерировать изображения.
Под капотом у BLIP3-o гибрид авторегрессионной модели (генерирует промежуточные семантические признаки) и диффузионного трансформера (он превращает их в изображения).
В ходе работы разработчики провели ряд экспериментов для выбора оптимальной стратеги для архитектуры и обучения. Апробации гипотез показали, что использование CLIP работает эффективнее, чем традиционный VAE.
CLIP создает более компактные и информативные представления, что ускоряет обучение и улучшает качество генерируемых изображений. А flow matching лучше , чем подход с использованием среднеквадратичной ошибки (MSE): инференс в итоге более разнообразный и визуально качественный.
Наилучшие результаты обучения показал подход, при котором модель сначала обучают понимать изображения, а затем замораживают эти навыки, переключаясь на обучение генерации картинок.
На основе этих принципов и были созданы модели BLIP3-o 8B и BLIP3-o 4B.
В оценках по эталонным тестам BLIP3-o 8B набрала 1682.6 на MME-P, 50.6 на MMMU и 0.84 на GenEval. Исследование с оценкой человеком, сравнивающее BLIP3-o с Janus Pro, показало, что BLIP3-o лучше как по визуальному качеству, так и по соответствию промпту.
В будущем Salesforce планирует расширить возможности модели: редактирование существующих изображений, поддержка визуальных диалогов и пошаговая генерация.
@ai_machinelearning_big_data
#AI #ML #MMLM #BLIP3o #Salesforce
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Человекоподобные машины сойдутся в схватке под управлением операторов. Бои начнутся через неделю и будут транслироваться по национальному ТВ.
Please open Telegram to view this post
VIEW IN TELEGRAM